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摘 要 : [目的 /意义 ] 针 对 原始 资料 整理 中 存在 的 问题 ,提出 一 种 可 实现 考古 发 气 资 料 数据 化 转换 和 语义 关联 的 方法 , 帮 
助 考古 学 工作 者 规避 低 效 流 程 。[ 方法 “过程 ] 首 先 , 结 合 实例 对 人 文学 科 原 始 资料 的 特征 进行 解析 ,设计 原始 资 
料 数 据 化 转换 的 过 程 和 方法 ;其 次 ,选取 新 疆 和 静 察 吾 呼 基地 的 考古 发 气 资 料 为 实证 数据 来 源 , 构 建 考古 发 气 资 


料 图 数据 库 ; 最 后 ,以 文物 间 的 共存 关系 为 例 ,实现 考古 发 气 资 料 图 数据 库 的 语义 关联 构建 。[ 


结果 /结论 ] 考 古 发 


握 资 料 图 数据 库 及 其 语义 关联 的 构建 ,为 考古 发 握 资 料 的 数据 化 转换 提供 了 新 的 方法 和 思路 ,在 数字 人 文 领域 有 


推广 价值 和 实际 意义 。 
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考古 学 在 人 文学 科 中 属于 史学 大 类 ,是 较 早 采用 
效 才 人 文 技术 作为 研究 手段 的 学 科 之 一 。 在 数字 人 文 
实 获 的 6 个 主要 方向 中 ,历史 学 方面 的 基于 GIS 的 历 
页 现 理 可 视 化 "和 “考古 学 方面 的 图 像 分 析 、 色 彩 还 原 
和 莹 字 重 建 " 都 是 与 考古 学 密切 相关 的 数字 人 文 方 
电 。 在 基于 DH Commons 所 做 的 英国 数字 人 文 项 目 
中 ,有 542 个 标注 了 研究 领域 的 项 目 ,其 中 考古 学 
注 了 88 次 ,并 认为 “历史 研究 ( 含 考古 ) 语言 
学 研究 .图 书馆 /信息 和 博物 馆 研 究 是 英国 数字 人 文 项 
目 最 重要 的 研究 领域 "1!， 

目前 , 相 较 于 考古 学 领域 ,直接 与 图 书馆 .档案 馆 、 
博物 馆 (Library，Archive and Museum, LAM ) 机 构 结 合 
的 文物 和 文化 遗产 领域 对 于 数字 人 文 及 面向 人 文学 科 
的 知识 服务 的 学 术 敏感 性 更 强 , 这 得 益 于 我 国 在 过 去 
20 多 年 间 已 经 基本 完成 的 LAM 机 构 馆 藏 资源 大 规模 
数字 化 转换 进程 所 。 然 而 ,在 考古 发 掘 工作 过 程 中 ,会 
持续 产 出 零散 且 种 类 丰富 的 考古 发 掘 资料 ,其 通常 不 
具备 直接 进行 结构 化 组 织 和 数据 化 应 用 的 条 件 ,这 使 
新 发 现 的 资料 难以 融入 现 有 的 知识 组 织 体系 ,进而 


NN 


em 


影响 到 考古 学 数字 人 文 研究 的 整体 进程 。 因 此 ,探索 
适用 于 考古 发 据 资 料 直接 录入 与 整理 的 数据 组 织 和 语 
义 关联 构建 方法 有 重要 的 现实 意义 。 


2 相关 研究 


目前 ,国内 外 在 考古 信息 资源 的 组 织 . 存 储 、 管 理 
与 应 用 方面 均 取 得 了 相应 的 实践 成 果 , 较 具 代 表 性 的 
包括 英国 ARCH 资助 的 STAR 项 目 ”-5 和 雷 丁 大 学 的 
IADB 数据 库 “' .德国 的 Archeo-Info 系统 、 美 国 芝 加 
哥 大 学 的 OCHRE 系统 号 以 及 中 国 社会 科学 院 考 古 研 
究 所 和 清华 大 学 合作 研发 的 E-Arch 系统 ”等 。 上 述 
项 目 所 包含 的 信息 资源 以 经 过 整理 的 数字 化 资源 为 基 
础 ,但 对 于 更 原始 的 考古 发 掘 资料 而 言 , 纸 质 档案 仍然 
是 国内 外 很 多 机 构 主 要 的 保存 方案 。 大 量 考古 发 掘 资 
料 会 按照 传统 方法 以 实物 和 数字 化 副本 形态 分 布 存储 
在 不 同 的 机 构 中 ,这 种 资源 存储 方式 会 造成 非常 严重 
的 知识 揭示 与 分 享 障碍 , 列 含 着 丰富 知识 的 发 掘 资料 
在 有 序 性 .开放 性 ,安全 性 乃至 研究 价值 上 都 会 因此 大 
打折 扣 。 其 中 ,在 考古 发 掘 资料 的 记录 整理 和 数据 化 
过 程 中 所 面临 的 效率 和 技术 难题 是 不 容 忽视 的 。 

综合 数字 人 文 其 他 领域 的 成 果 来 看 ,有 关 技 术 和 
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方法 的 研究 主要 集中 于 数据 库 建 设 和 知识 可 视 化 ,以 
及 在 此 基础 上 的 学 科 服 务 平台 开发 ,其 热点 话题 涵盖 


例 可 归纳 为 "无 结构 数据 “ 半 结 构 化 数据 "和 ”结构 化 
数据 ”3 类 ,无 结构 数据 的 表现 为 "文献 .文物 、 物 件 自 


数字 人 文 领域 的 关联 数据 发 布 "" .文本 挖 抉 "元 数 
据 组 织 ,本体 建 模 "" 和 知识 图 谱 开 发 "" 等。 上述 
研究 涉及 实证 部 分 的 数据 源 通 常 来 自 LAM 馆藏 体系 
中 已 有 的 结构 化 和 半 结 构 化 的 数字 资源 ,通常 具有 和 较 
为 确定 的 框架 结构 和 可 参照 的 元 数据 控制 方案 ,使 研 
究 者 可 以 根据 信息 需求 完成 知识 抽取 和 知识 表示 ,以 
及 进一步 的 关系 型 数据 库 的 构建 ,知识 图 谱 的 开发 和 
后 续 的 知识 服务 工作 ,对 于 异 构 的 外 部 数据 库 也 可 以 
通过 知识 融合 方法 实现 数据 互联 。 

从 过 程 上 分 析 , 上 述 研究 起 点 多 为 知识 组 织 环节 ， 
其 面 对 的 数据 通常 是 经 过 数字 化 和 文本 化 梳理 的 二 次 
或 三 次 情报 ,而 本 文 的 研究 对 象 一 一 考古 发 据 资 料 , 则 
局 定 更 基础 的 一 次 情报 ,对 应 的 是 从 各 个 场景 中 采集 
到 阐 原 始 资料 ,在 考古 学 以 外 的 其 他 人 文学 科 中 也 普 
冲 得 在 。 在 数字 人 文 研究 的 前 期 ,几乎 都 要 经 历 对 
LA 二 机 构 馆藏 资源 进行 数字 化 ( Digitalization ) 转换 的 
除 胡 ,一 般 做 法 是 将 结构 化 水 平 很 低 的 资源 进行 结构 
做 歼 理 后 存 人 关系 型 数据 库 , 该 阶段 需要 借助 大 量 的 
从 当 参 与 ,尤其 是 需要 人 文学 者 从 事 大 量 低 水 平 且 演 
罗 的 资料 搜集 和 整理 工作 "”。 从 宏观 进程 来 看 ,国内 
对 为 规模 馆藏 资源 的 数字 化 转换 阶段 已 经 告 一 段落 ， 
但 年 人 文学 科 领 域 ,与 考古 发 气 资 料 类 似 的 新 的 原始 
综 焊 仍 在 不 断 产生 ,各 领域 人 文学 者 们 以 传统 的 低 效 
方 油 进 行 资料 采集 和 整理 的 现象 依然 普遍 存在 ,而 当 
前 数字 人 文 领域 的 技术 研究 对 于 这 些 零星 产生 于 各 学 
科 己 线 、 不 适合 或 无 法 直接 纳入 关系 型 数据 库 的 原始 
资料 并 无 妥善 的 解决 方案 。 因 此 ,笔者 以 人 文学 者 的 
现实 需求 导向 ,面向 数字 人 文 研究 过 程 ,构建 一 种 人 文 
学 科 的 原始 资料 整理 模型 ,以 考古 发 气 资 料 为 对 象 , 提 
出 能 够 实现 原始 资料 数据 化 ( Datalization ) 转换 的 数据 
库 构 建 方法 ,以 及 在 此 基础 上 实现 语义 关联 ,以 帮助 考 
古 工作 者 及 其 他 领域 人 文学 者 规避 工作 中 的 低 效 流 
程 , 为 进一步 的 语义 化 知识 服务 做 好 数据 准备 。 


3 ”原始 资料 的 分 析 与 整理 


3.1 原始 资料 的 特征 解析 

原始 资料 (Primary source) 是 指 包含 了 原始 信息 的 
文献 .实物 \ 现 象 和 其 他 事物 ,从 中 直接 获取 的 原始 信 
息 往 往 结构 不 统一 ,资料 分 布 更 为 碎片 化 。 一 份 资料 
所 承载 的 是 否 是 未 经 过 知识 揭示 的 原始 信息 ,是 界定 
其 是 否 为 原始 资料 的 标准 。 常 见 的 LAM 数据 资源 实 


带 的 原始 信息 ” ,这 些 原始 信息 及 其 载体 均 可 被 视 为 原 

人 资料” 。 在 考古 工作 中 ,通过 田野 调查 和 考古 发 气 
直接 记录 ,采集 ,汇总 ,统计 所 得 的 文献 .实物 和 数据 资 
料 均 属于 原始 资料 。 换 言 之 ,考古 学 中 的 原始 资料 可 
细 分 为 田野 调查 资料 和 考古 发 掘 资 料 。 在 针对 考古 发 
掘 资料 的 整理 方法 进行 讨论 之 前 ,有 必要 对 人 文学 科 
中 原始 资料 的 一 般 特 征 进行 解析 。 

相 较 于 自然 科学 和 社会 科学 ,人 文学 科 知 识 元 素 
之 间 的 关联 关系 与 发 展演 化 规律 更 加 隐 星 , 这 使 得 对 
其 知识 框架 整理 的 难度 也 有 所 加 大 , 且 对 对 象 和 过 程 
的 描述 通常 具有 主观 性 。 因 此 ,在 研究 工作 完成 之 前 ， 
很 难 对 其 中 的 大 量 内 容 和 知识 直接 进行 结构 化 描述 与 
存储 。 经 过 人 文学 者 的 研究 ,通常 会 在 外 部 结构 化 描 
述 的 基础 上 ,依据 从 原始 资料 中 抽取 出 的 信息 对 其 进 
行 分 类 命名 、 内 容 描述 和 其 他 知识 揭示 ,有 效 知识 揭示 
所 产生 的 知识 成 果 是 原始 资料 具备 进一步 数据 化 转换 
的 条 件 , 即 资料 可 以 通过 相应 的 数据 进行 描述 .表达 、 
存储 和 应 用 。 职 能 上 面向 公众 服务 的 LAM 机 构 的 馆 
藏 结构 中 虽然 包含 了 一 定 比 例 的 原始 资料 ,但 其 中 大 
部 分 馆藏 资料 都 有 研究 基础 ,为 方便 区 分 ,笔者 将 有 研 
究 基础 具备 数据 化 转换 条 件 的 资料 称 为 馆藏 资料 。 

人 文学 科 中 的 原始 资料 在 各 方面 的 特征 都 与 馆藏 
资料 存在 差异 , 详 见 表 1。 在 研究 的 不 同 阶段 ,二 者 所 
面 对 的 资料 实体 可 能 会 发 生 重 又 。 总 的 来 说 , 随 着 人 研 
究 的 深入 ,对 资料 解析 程度 的 提升 ,原始 资料 会 逐渐 向 
数据 化 条 件 完 善 的 馆藏 资料 转变 。 

表 1 原始 资料 和 馆藏 资料 (LAM 机 构 ) 特征 对 比 


对 比 项 原始 资料 馆藏 资料 
资料 来 源 观察 .田野 调查 、 社 会 调查 等 ”研究 .整理 和 创作 
资料 内 容 实物 ,现象 过程, 概念 及 其 衍 。 文献 及 与 文献 内 容 相关 的 
生物 实物 
命名 规则 缺乏 参照 ,不 确定 或 不 完全 确定 ”可 参照 ,较为 确定 
分 类 规则 部 分 明确 明确 
结构 化 效果 ” 较 差 好 
数据 规模 中 小 规模 大 规模 
产 出 模式 零散 .持续 且 不 规律 集中 、 单 次 或 定期 
操作 人 员 人 文学 人 文学 者 和 知识 管理 人 员 
研究 基础 通常 较 差 或 无 研究 基础 (新 较 好 
材料 ) 
使 用 目的 研究 过 程 资料 保存 公共 教育 、 研 究 服务 .商业 
j 途 等 
t 享 范围 业内 或 私密 公共 领域 或 有 条 件 开放 
共享 形式 非 正式 正式 
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笔者 以 1993 年 出 土 于 江苏 邳州 九 女 墩 三 号 墩 的 
一 件 铭文 铜 盘 作 为 实例 进行 解析 ,解析 细节 如 图 1 所 
示 。“ 原 始 资料 " 栏 的 考古 发 掘 资料 来 自 2002 年 发 表 
的 考古 发 掘 简报 ”1, “馆藏 资料 ” 栏 补充 了 2019 年 的 
铭文 释 读 信息 ” 。 同 一 莫 匡 中 出 土 的 纹饰 .器 型 相同 
的 青铜 盘 共 5 件 , 且 实例 中 的 青铜 盘 是 在 清理 过 程 中 


分 ,故而 原始 资料 栏 中 的 外 部 结构 化 描述 无 法 对 这 件 
铭文 青铜 盘 给 予 准确 的 专属 性 命名 。 而 随 着 研究 过 程 
的 深入 ,铭文 被 释 读 之 后 ,馆藏 资料 栏 中 基于 研究 内 容 
对 这 件 铭文 青铜 盘 的 结构 化 描述 足以 将 其 与 共同 出 土 
的 4 件 星 蛇 纹 盘 进行 区 分 ,此 时 才能 将 其 作为 结构 化 
数据 存储 到 关系 型 数据 库 中 ,为 进一步 的 知识 管理 和 


被 发 现 底 部 刻 有 铭文 。 由 于 考古 报告 上 并 未 对 其 做 区 知识 服务 工作 做 准备 。 
元 素 名 称 原始 资料 馆藏 资料 器 型 照片) 
类 别 青铜 器 青铜 器 
名 | 器 名 青铜 盘 青铜 盘 
称 | 异 名 里 蛇 纹 盘 * 保 奸 得 ** 
相信 入 春秋 晚期 春秋 晚期 
族 属 徐 国 徐 国 
现 藏 地 Null 邳州 市 博物 馆 
口径 22.6 厘米 口径 22.6 厘米 
形 度量 高 10 厘米 高 10 厘米 
制 盘 ， 口 沿 方 折 ， 颈 略 收 ， 肩 稍 斜 ， 弧 | 盘 ， 口 沿 方 折 ， 颈 咯 收 ， 肩 稍 斜 ， 
影 型 @ a 
= 腹 ， 平底 弧 腹 ， 平 底 
> 腹部 饰 两 道 强 纹 , 颈 、 腹 部 均 饰 细密 、| 腹部 饰 两 道 绳 纹 , 颈 、 腹 部 均 饰 细 
纹饰 8 整齐 的 蜂 蛇 纹 ， 腹 下 部 饰 两 周三 角 | 密 、 整齐 的 里 蛇 纹 , 腹 下 部 饰 两 周 
纹 ， 内 填 里 蛇 纹 角 纹 ， 内 填 蜂 蛇 纹 
位 置 器 内 底 
阴阳 文 阴 文 
字数 2 全 风 纹饰 (拓片) 铭文 (拓片 ) 
行 数 4 行 ; rd 
铭文 @ 内 | Unknown 皮 句 徐 之 孙 、 肤 旨 眶 之 子 保 ， 保 恕 他 
容 公 之 妻 寻 ， 同 铸 用 锚 
来 马 永 强 , 程 卫 . 江苏 邳州 九 女 壤 三 
号 墩 出 土 铜 盘 铭 文 考释 四 . 文物 ， 
源 2019(10):79-81. 
时 间 1993 年 1993 年 
地 点 江苏 省 邳州 市 戴 庄 镇 江苏 省 邳州 市 戴 庄 镇 
遗址 九 女 墩 ， 三 号 墩 九 女 墩 ， 三 号 墩 
类 型 菜 羔 幕 芋 
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业 近 照 青铜 器 类 文物 的 命名 规则 ， 无 铭文 的 青铜 器 通常 依照 特征 纹饰 + 器 型 命名 。 
目 辐 环 带 铭文 的 青铜 器 命名 有 “名 从 主人 ”原则 ， 该 铜 盘 为 保 与 其 妻 奸 两 人 所 铸 。 


O 图 1 


结合 特征 对 比 与 实例 解析 可 知 ,在 相关 研究 取得 
一 定 成 果 之 前 ,原始 资料 中 的 对 象 很 难 通过 描述 性 命 
名 和 层级 制 分 类 进行 定义 。 现 有 的 结构 化 描述 方法 不 
能 对 原始 资料 中 存在 差异 的 对 象 进 行 辨识 与 区 分 ,使 
得 这 些 资 料 所 转换 的 结构 化 信息 即便 被 纳入 现 有 关系 
型 数据 库 和 知识 图 谱 中 ,也 无 助 于 进一步 的 学 科研 究 
和 知识 共享 ,还 有 可 能 导致 语义 模糊 。 但 是 ,原始 资料 
中 的 对 象 在 知识 网 络 中 关系 是 相对 稳定 的 ,通过 对 对 
象 在 已 有 知识 体系 中 已 知 关系 的 描述 ,可 将 原始 资料 
转换 为 确定 关系 、 开 放 命 名 、 未 定 分 类 的 中 间 态 数据 
(Intermediate data) 。 由 原始 资料 直接 转化 而 来 的 中 间 
态 数 据 本 身 包 含 诸多 未 知 或 待定 的 属性 ,并 不 适合 直接 
面向 公众 进行 数据 共享 ,但 在 功能 上 可 以 满足 进一步 人 
文 研 究 的 相应 需求 ,帮助 人 文学 者 进行 资料 的 录入 、 整 


原始 资料 与 馆藏 资料 的 结构 化 描述 效果 对 比 


理 、 统 计 与 分 析 , 促 进 原始 资料 向 馆藏 资料 转换 。 此 外 ， 
中 间 态 数据 以 关系 结构 描述 对 象 , 本 身 具 有 相应 的 知识 
揭示 功能 , 若 能 与 目标 领域 的 本 体 结 构 进 行 语义 匹配 ， 
即 可 促使 其 标准 化 ` 规 范 化 ,作为 外 部 数据 库 融 合 到 现 
有 的 知识 图 谱 中 ,直接 实现 原始 资料 的 数据 化 转换 。 
3.2 原始 资料 整理 方法 

陈涛 等 将 数字 人 文 的 研究 进程 划分 为 资源 数字 化 
转换 数字 资源 的 文本 建设 和 研究 .对 文本 化 资源 的 数 
据 化 和 智慧 化 研究 3 个 阶段 ,是 对 当前 数字 人 文 研究 
宏观 进程 的 描述 ,并 就 此 提出 了 宏观 数字 人 文 研究 框 
架 "“ 。 宏 观 研究 框架 中 的 馆藏 资料 将 经 过 数字 化 转 
换 和 结构 化 描述 ,存储 到 关系 型 数据 库 中 并 转换 为 人 
文 数据 。 我 国 在 过 去 的 20 多 年 间 已 经 基本 完成 了 第 
一 阶段 的 工作 ,目前 正 处 于 第 二 阶段 颇具 成 效 , 癌 第 三 
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阶段 逐步 迈进 的 过 程 。 从 微观 上 看 ,对 于 从 各 人 文学 
科 持 续 性 产 出 的 轻 量化 原始 资料 而 言 , 在 短 时 间 内 人 
文学 者 很 难 主动 进行 数字 化 转换 和 结构 化 描述 ,无 法 
直接 将 其 存储 到 关系 型 数据 库 中 ,按照 宏观 的 数字 人 
文 研究 框架 ,后 续 的 文本 化 ,数据 化 和 智慧 化 也 难以 推 
进 。 尽 管 关系 型 数据 库 和 语义 知识 图 谱 具 有 严格 的 元 
数据 控制 和 本 体 结构 , 且 在 严谨 性 .标准 化 和 长 期 保存 
与 共享 方面 表现 更 为 优秀 ,但 对 于 原始 资料 的 整理 工 
作 并 非 上 佳之 选 。 笔 者 认为 有 必要 对 人 文学 科 中 原始 
资料 的 处 理 方法 和 过 程 进行 重 构 , 促 使 其 以 较 高 的 效 
率 与 宏观 数字 人 文 进程 实现 同步 ,较为 可 行 的 思路 是 
对 原始 资料 中 方便 进行 结构 化 描述 的 内 容 进行 外 部 结 
构 化 描述 , 复 用 现 有 关系 型 数据 库 的 结构 和 元 数据 规 
范 进 行 数字 化 和 文本 化 ;对 于 其 他 难以 与 现 有 关系 型 
据 库 进行 规范 .统一 .标准 化 描述 的 内 容 , 则 以 对 象 


图 数据 库 善于 处 理 大 量 复杂 、 互 连接 、 低 结 构 化 的 
数 也 ,具有 更 强 的 数据 兼容 性 ,有 对 关联 关系 的 表达 更 
吉 驱 .处理 更 高 效 ,其 功能 方面 “更 侧重 于 知识 挖掘 和 
序 , 发 现 隐 性 知识 并 可 视 化 ,实现 诸如 提问 式 检索 、 
时 弛 展示 等 功能 ,推动 人 工 智能 环境 下 数字 人 文 研究 
7 的 创新 ""” 。 尽 管 图 数据 库 简单 易 用 ,但 是 由 于 
乌 浊 标准 化 的 规范 词 表 控制 ,不 同 图 数据 库 之 间 难 以 
互 道 ,数据 孤岛 问题 仍 难以 避免 。 不 过 ,笔者 对 原始 次 
粮 稀 理 的 直接 目标 是 将 其 转换 成 中 间 态 数据 ,这 一 上 
路 就 面向 人 文学 者 的 研究 过 程 而 非 面向 公众 的 知识 共 


[es 


片 


享 2 图 数据 库 在 原始 资料 的 录入 、 整 理 和 存储 方面 更 为 
适用 。 综 合 考虑 多 方面 因素 之 后 ,笔者 决定 选择 Neo4j 
进行 考古 发 掘 资料 图 数据 库 的 构建 。 图 数据 库 简单 的 
“N-E”(Nodes & Edges, 节 点 和 边 ) 和 “K-V” (Keys & 
Values, 键 和 值 ) 结构 可 以 包容 大 量 中 间 态 数据 ,同时 
其 易 用 性 也 可 以 满足 非 专 业 人 士 的 数据 维护 需求 。 

综 上 所 述 ,宏观 框架 从 整体 上 将 数字 人 文 研 究 进 程 
分 为 3 个 阶段 ,考虑 到 微观 形态 上 轻 量 化 原始 资料 不 断 
产 出 的 过 程 ,笔者 引入 图 数据 库 并 提出 了 可 进一步 与 宏 
观 框架 关联 的 原始 资料 整理 过 程 ,如 图 2 所 示 。 将 宏观 
研究 框架 的 起 点 向 前 回溯 :中 在 获取 原始 资料 之 后 ,由 
各 个 领域 的 人 文学 者 接触 并 处 理 原始 资料 ,依托 人 文 研 
究 方法 对 原始 资料 进行 分 类 ,整理 .辨识 .解析 ,使 之 转 
化 为 具有 一 定 研究 基础 的 馆藏 资料 ,并 与 相关 成 果 一 同 
归档 于 典藏 机 构 , 这 一 过 程 本 质 上 属于 传统 人 文 研究 阶 
段 ,在 宏观 上 属于 数字 人 文 研究 的 基础 和 前 提 , 在 数字 
人 文 兴起 之 前 ,这 种 传统 的 人 文 研究 进程 已 经 持续 上 百 


年 ,相应 的 人 文 研究 成 果 也 有 着 丰厚 的 积 注 。@ 宏 观 数 
字 人 文 研究 框架 的 真正 起 点 是 对 馆藏 资料 的 数字 化 转 
换 , 自 21 世纪 以 来 ,在 LAM 等 典藏 机 构 先 后 开展 的 数字 
化 建设 和 数字 人 文理 念 下 推动 了 大 规模 的 馆藏 资料 数 
字 化 ,其 主要 工作 是 对 各 类 馆藏 资料 做 结构 化 描述 和 基 
于 关系 型 数据 库 的 存储 ,以 元 数据 规范 各 类 资料 的 著录 
言 息 ,并 将 其 作为 索引 指向 各 类 数字 化 存储 的 信息 资 
源 . 纸 质 文献 和 实物 。 包 对 馆藏 数字 化 资源 的 文本 化 和 
文本 分 析 语义 化 和 基于 语义 知识 图 谱 的 推理 .共享 是 
数字 人 文宏 观 研究 在 当前 的 主要 方向 ,在 此 基础 上 开展 
的 各 项 知识 服务 也 是 数字 人 文 研究 的 目的 。 

但 是 ,对 于 宏观 研究 框架 而 言 ,在 传统 人 文 研究 和 
大 规模 数字 化 阶段 所 做 的 积淀 是 后 续 步 又 推进 的 前 
提 , 这 使 得 在 微观 上 , 近 些 年 持续 零星 产 出 的 人 文学 科 
原始 资料 在 短 时 间 内 难以 跟 进 宏观 进程 ,因此 ,笔者 重 
构 了 针对 原始 资料 整理 的 微观 框架 ,对 于 新 发 现 的 轻 
量 级 原始 资料 而 言 , 人 文学 者 可 以 同时 进行 两 项 工作 : 
QD 对 原始 资料 进行 数字 化 和 外 部 结构 化 描述 ,对 应 宏 
观 研究 框架 的 数字 化 进程 ,其 结果 可 以 存储 至 关系 型 
数据 库 中 ,主要 用 作 资 料 对 应 存储 和 归档 。@ 进 行 数 
据 分 析 和 数据 建 模 , 明确 原始 资料 中 包含 的 各 类 对 象 
及 对 象 间 的 关系 和 属性 ,将 其 转化 为 能 够 辅助 人 文 研 
究 的 中 间 态 数据 ,并 以 图 数据 库 的 形式 进行 存储 和 应 
日 。(BD 上 述 步骤 的 目标 不 在 于 获取 宏观 研究 框架 下 数 
字 化 和 文本 化 阶段 完成 后 的 中 间 成 果 , 而 是 基于 图 数 
据 库 存储 的 中 间 态 数据 ,进一步 实现 原始 资料 的 语义 
化 描述 和 语义 关联 构建 ;对 于 中 间 态 数据 而 言 , 既 可 复 
用 已 有 的 元 数据 框架 将 其 规范 化 ,实现 与 宏观 研究 框 
架 的 数据 整合 ,也 可 以 通过 语义 关联 构建 转化 为 语义 
知识 图 谱 ,进而 实现 与 现 有 知识 图 谱 的 融合 。 
3.3 ”原始 资料 整理 模型 与 模型 交互 
由 于 数据 获取 和 处 理 方 式 以 及 面向 的 用 户 均 有 不 
同 , 根 据 上 文 重 构 的 数字 人 文 研究 框架 ,本 文 提出 了 以 
图 数据 库 为 核心 的 .面向 人 文学 科 原 始 资料 的 整理 模 
型 (以 下 简称 “整理 模型 ”) ,该 模型 与 当前 数字 人 文平 
台 常 用 的 、 以 知识 图 谱 为 核心 的 知识 服务 模型 (以 下 简 
称 “ 服 务 模型 ”) 是 两 个 可 交互 的 独立 模型 。 同 时 ,应 
将 本 文 构建 的 图 数据 库 与 服务 模型 中 专用 于 数据 仓储 
的 图 数据 库 进 行 区 分 ,本 文 构 建 的 图 数据 库 可 视 为 宏 
观 知识 服务 系统 中 的 一 个 数据 转换 模块 ,与 面向 公众 
的 知识 服务 目标 不 同 , 其 作用 领域 在 人 文 研究 阶段 ,是 
数字 人 文平 台 开 展 持续 性 公众 知识 服务 的 必要 准备 。 
整理 模型 与 服务 模型 的 交互 结构 见 图 3。 
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， 韩 牧 哲 . 考古 发 据 资 料 图 数据 库 的 语义 关联 构建 研究 [J]. 图 书 情报 工作 ,2021 ,65(9):105 -116. 
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图 3 整理 模型 与 服务 模型 的 交互 结构 


左 侧 为 整理 模型 , 右 侧 为 服务 模型 ,两 个 模型 实现 


交互 的 部 分 共有 3 处 : 
第 一 处 ,外 部 结构 化 交互 。 指 原始 资料 发 现 或 产 
生 初 期 ， 人 
化 描述 ,并 存储 到 服务 模型 底层 的 结 a 
种 对 直接 感知 或 观察 内 容 的 描述 无 法 对 资源 内 涵 进 
深度 揭示 ,起 到 的 是 一 种 类 似 于 文献 编目 0 
意义 在 于 对 资源 的 进行 标识 。 
第 二 处 ,中 间 态 数据 交互 。 


交互 发 生 在 图 数据 库 


构建 的 “数据 建 模 " 步 又 之 后 ,此 时 原始 资料 已 经 通过 
分 析 和 建 模 , 被 组 织 成 由 节点 和 关系 表示 的 中 间 态 数 
据 , 通 过 中 间 态 数据 与 服务 模型 数据 进行 整合 ,可 以 将 
一 部 分 原始 资料 纳入 现 有 的 知识 库 中 ,从 而 完成 对 部 
分 原始 资料 的 初次 解析 。 
第 三 处 ,语义 关联 交互 。 这 是 图 数据 库 的 重要 应 

用 场景 之 一 ,可 以 通过 图 数据 库 的 深度 查询 功能 ,辅助 
用 户 进行 关联 构建 ,从 而 完成 自 下 而 上 的 本 体 构建 或 
对 服务 模型 中 本 体 框架 的 修正 。 此 处 交互 主要 针对 创 


109 


图 二 情报 三 作 


第 65 卷 第 9 期 2021 年 5 月 


ChinaXiv 合 作 期 刊 


新 性 研究 价值 较 高 的 原始 资料 ,其 应 用 场景 对 应 的 是 
数字 人 文 研究 过 程 ,这 些 研究 工作 对 资料 内 涵 的 充分 
揭示 ,是 原始 资料 融合 到 现 有 知识 图 谱 , 并 依托 数字 人 
文平 台面 向 一 般 用 户 开 展 知识 服务 的 基础 。 

3 处 交互 中 ,外 部 结构 化 交互 是 以 传统 方法 完成 
的 ,不 再 袭 述 。 后 文笔 者 将 结合 实际 ,对 中 间 态 数据 交 
互 和 语义 关联 交互 的 实现 方法 展开 进一步 探讨 。 


4 考古 发 掘 资料 图 数据 库 的 构建 


图 数据 库 的 构建 ,是 实现 整理 模型 与 服务 模型 中 
间 态 数据 交互 的 必要 条 件 。 本 文选 取 整 理 任务 艰巨 ， 
且 在 人 文学 科 体 系 中 基础 性 较 强 的 考古 发 据 资 料 作 为 
数据 对 象 并 构建 图 数据 库 , 实 证 数据 源 自 新 疆 和 妾 察 


分、 


料 "*1。 
4.1 考古 发 掘 资料 图 数据 库 的 构建 过 程 

整理 模型 所 对 应 的 知识 服务 平台 需要 涉及 到 整个 
系统 平台 的 设计 和 开发 ,在 保障 数据 安全 性 的 前 提 下 ， 
相对 简易 的 B/S 架构 (Browser/Server Architecture , 浏 
览 器 和 服务 器 架构 ) 足 以 满足 有 限 用 户 群 的 中 小 规模 
中 间 态 数据 的 录入 、 存 储 和 应 用 需求 。 本 文 将 着 重 对 
Neo4j 图 数据 库 构建 过 程 和 基于 Cypher 的 部 分 业务 逻 
辑 的 实现 方式 进行 探讨 ,对 于 平台 架构 中 的 用 户 交 互 
层面 及 其 相关 的 数据 库 访 问 连 接 机 制 不 做 过 多 曾 述 。 
考古 发 掘 资 料 图 数据 库 的 构建 过 程 主 要 包括 功能 分 
析 .数据 准备 .数据 分 析 ,数据 建 模 .图谱 生成 和 知识 应 
用 6 个 步骤 ,其 中 各 个 步骤 又 包含 不 同 的 内 容 , 具 体 如 


名 呼 大 型 氏族 幕 芋 群 的 一 、 四 、 五 号 墓地 的 考古 发 据 资 


图 4 所 示 : 


(© | 数据 录入 
© 知识 存储 
之 [站 功能 分 析 一 | 。 知识 导航 检索 与 统计 
© ! 信息 推荐 知识 计算 
< 十 关联 构建 深度 查询 
过 | 界定 资料 来 源 范围 
本 
GAN 数据 准备 一 | 。 选 定数 据 类 目 与 关系 
©O : 数据 清洗 与 预 处 理 
加 图 = 
~y 划分 主 类 定义 节点 标签 
| , 分 配 编号 确定 主 类 节点 的 编号 规则 
>< 考 数据 分 析 一 -| 
© 页 . 定义 关系 定义 主 类 间 的 原生 关系 
人 所 分 配属 性 为 主 类 节点 和 关系 分 配属 性 并 定义 信 域 
B ss 和 = 
用 | 最 小 数据 模型 检验 迎 辑 漏洞 
O 数 一 | ”数据 建 模 一 | 
和 复杂 数据 模型 检验 主 类 划分 、 关 系 定义 、 属 性 分 配 的 合理 性 
的 ! 
移 1 一 一 
建 F= 批量 化 导入 数据 集 创建 语义 ereate 
过 1 Cyphe 
全 : 逐个 创建 数据 条 目 修订 语句 merge 
| 设置 语句 set 
谱 生成 Python、jJava、PHP…… 
: Neoqj ETL 转换 导入 关系 数据 库 
| 查询、 检索、 统计 
图 密度 、 向 心 度 、 模 抉 度 …… 
H 网 络 分 析 Rs 
知识 应 用 一 最 短路 径 、 深 度 遍 历 、 网 络 稀 朴 …… 
所 | 知识 计算 图 算法 工具 包 : apoc、algo 


4 考古 发 掘 资料 图 数据 库 的 构建 过 程 


在 考古 发 掘 资料 图 数据 库 构 建 过 程 中 ,数据 分 析 
和 数据 建 模 是 其 中 的 关键 步骤 ,本 节 将 结合 实例 着 重 
对 这 两 个 方面 展开 探讨 。 


4.2 数据 分 析 
数据 分 析 的 目的 是 定义 图 数据 库 中 需要 呈现 的 节 
点 和 关系 类 型 .属性 和 属性 值 的 类 型 与 定义 域 。 


[E: 


110 


高 劲松 ， 韩 牧 哲 . 考古 发 气 资 料 图 数据 库 的 语义 关联 构建 研究 [J 


ChinaXiv 合 作 期 刊 
]. 图 书 情报 工作 ,2021 ,65(9) :105 -116. 


(1) 节点 定义 。 图 数据 库 中 的 任 一 节点 均 需 包含 
一 个 专属 的 节点 编号 (Index:ID). 一 个 标签 (Node: 
Lable ) 和 若干 属性 (Property: Keys)。 节 点 的 编号 需要 
考虑 到 各 类 节点 所 代表 的 知识 在 相关 学 科 体 系 中 的 基 
本 分 类 和 层次 逻辑 ,编号 本 身 即 可 组 成 基于 先 验 知识 
的 基本 知识 框架 , 相 较 于 单纯 的 顺序 编号 方法 ,此 种 编 
号 规则 可 做 到 层次 分 明 不 重 不 漏 且 具有 一 定 的 可 扩 
展 性 。 节 点 标签 依据 数据 集 子 类 划分 定义 ,拥有 相同 
标签 的 节点 可 视 为 同类 。 在 非 层 次 网 络 中 ,同一 类 下 
的 各 个 节点 可 视 为 该 类 实体 的 实例 (Individual) 。 以 考 
古 发 掘 资料 中 最 常见 的 幕 芋 遗迹 为 例 , 考 古 报告 中 所 
附 “ 莫 匡 登 记 表 ”所 载 信 息 繁 简 不 一 ,但 都 会 涉及 到 


“遗址 “ 莫 形 ”“ 硬 式 “ 墓 主 信息 ”“ 出土 文物 ” 几 类 内 
容 , 可 以 将 其 暂时 划 定 为 墓 匡 发 掘 资料 中 的 节点 主 类 ， 
在 实践 中 涉及 到 具体 情况 时 ,可 以 对 主 类 进行 相应 的 

节点 属性 通常 是 相关 节点 的 描述 性 或 限定 性 内 
容 , 文 持 文本 型 数值 型 .向 量 性 等 各 种 形式 的 数据 存 
储 , 还 能 够 存储 多 种 格式 的 图 形 、 动 态 图 形 数 据 和 链 
接 , 以 及 RDF 三 元 组 。 节 点 属性 的 分 配方 式 并 不 固 
定 ,实践 中 也 需 具体 问题 具体 分 析 。 图 数据 库 中 节点 


hn 


和 关系 的 属性 及 


属性 值 还 可 以 通过 图 计算 获得 ,并 进 


行 独 立 或 批量 的 增删 操作 。 


考古 发 据 原 始 资料 图 数据 库 的 节点 定义 如 表 2 所 示 : 


表 2 考古 发 掘 资料 图 数据 库 初 始 节点 定义 
类 型 节点 编号 属性 1 属性 2 属性 3 节点 标签 

Index:ID Propenrity :Keyl Properity :Key2 Properity :Key3 Node:Lable 
Sid = 1 类 号 +X 墓 地 号 + 了 墓 菲 号 名 称 人 数 墓 形 本 

Site 
Xel[01,99], Ye[001,999] Name Bodycount Code 
示例 : 察 吾 呼 五 号 幕 地 M4 ,型 式 为 AI, 芋 5 具 个 体 = (101004 :Site| Name:"M004_C5", Bodycount:"5", Code:"AlI"|) 
Tid =2 类 号 + X 墓 形 代号 阅 莫 式 代号 名 称 代号 描述 墓 形 

Tombshape 
Xe[0001,0009], Ye[1,9] Name Tdescription Code 


示例 :AI 式 莫 = (200012;Tombshape| Name:“ 石 


围 石室 莫 A 型 工 式 ” 


，Tdescription :规则 弧 腰 三 角形 石 


卵石 构筑 石室 ,一端 开 口 一 端 封闭 ”，Code:" AI | ) 


202304,00696y 


围 , 莫 室 口 距 地 表 较 浅 ,墓室 较 深 ， 


Bid =3 类 号 + X 二 级 层次 代号 名 称 
一 一 Burialform 
X e [00011 ,00099 Name 
示例 :侧身 届 肢 项 = (300022: Burialform| Name: 侧 身 屈 肢 匡 ” | ) 
加 
Oid =4 类 号 + 义 二 级 层次 代号 性 别 AEn 
2 信息 ( 略 ) "| - 性 别 于 从 全 S Ownerinfo 
日 FE X e [00011,00099 Gender AgeG 
>< 示例 :成 年 男性 = (400003 : Ownerinfo| Gender:"M", AgeG:"3"|) 
人 Rid = 5 类 号 + 又 多 级 层次 代号 名 称 
区 和 功 一 一 Relic 
X e {10000,99999 Name 
8 is 
i 示例 : 带 流 杯 AII = (511230: Relic| Name:“ 带 流 杯 AI”| ) 


(2) 关系 定义 。 图 数据 库 中 的 初始 关系 都 是 直接 
关系 ,并 未 经 过 进一步 的 统计 推理 和 加 工 。 笔 者 从 实 


证 数据 集中 分 离 出 的 初始 关系 主要 有 5 种 类 型 ,作为 


基 匡 考古 中 较 


表 3 考古 发 掘 资料 图 数据 库 初始 关系 定义 


关系 /关系 类 


具 代 表 性 的 关系 类 型 ,如 表 3 所 示 : 


源 节点 靶 节 点 属性 - 数量 属性 - 频次 属性 - 比例 
RelationshipZType Src Dst Qty Freq Pet 
墓 形 为 遗址 墓 形 N N N 
has_tombshape Site Tombshape 
示例 :四 号 幕 地 M160 的 墓 形 为 AI = (104160 :Site) - [ :has_tombshape] - > (200012 :Tombshape) 
茸 式 为 遗址 欧式 Y N Y 
has_burialform Site Burialform 
示例 :四 号 幕 地 M160 的 草 式 包含 仰 身 届 肢 草 = (104160 : 


幕 主 为 ( 略 ) 


was_tomb_of 


幕 主 信息 Y N Y 


Ownerinfo 


示例 :四 号 募 地 M160 :男性 2,24 -30,25 -30 =(104160:Site) -[ :was_tomb_oflQty:"2"，Pet:"100" |] -= > (400013 :Ownerinfo ) 


包含 文物 


has_relic 


遗址 


Site 


文物 Y 
Relic 


N 
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( 续 表 3) 
关系 /关系 类 源 节点 靶 节 点 属性 - 数量 属性 - 频次 属性 - 比例 
示例 :四 号 募 地 M159 : 带 流 杯 AIIL,2 = (104159 .Site) - [ :has_relic|Qty:"2", Pet:"50"| ] - > (511230:Relic ) 
早 于 遗址 遗址 N N N 
earlier_than Site Site 


示例 :一 号 幕 地 M213 羞 压 M279 = (101279 .Site) - [ :earlier_than 


Neo4j 图 数据 库 中 的 关系 必须 定义 方向 ,但 在 图 节 
点 遍历 和 其 他 检索 操作 中 ,关系 是 默认 无 向 或 双向 的 。 
上 述 关系 中 ,有 4 种 类 间 关 系 ,1 种 类 内 关系 ;类 内 关 
系 “ 早 于 ”是 唯一 指向 性 关系 ,其 所 标识 的 是 部 分 墓葬 
遗迹 之 间 的 地 层 顺序 ,这 些 相对 的 层 位 关系 在 有 序 考 
十 地 层 中 可 用 于 判断 相关 墓葬 遗迹 的 相对 年 代 。 

关系 的 类 名 通常 表征 关联 类 型 ,两 个 节点 和 其 间 
关系 的 类 名 通常 可 以 视 作 一 个 完整 表达 的 RDF 三 元 
组 > 关系 属性 的 分 配 与 节点 不 同 ,关系 属性 较 多 对 应 
的 是 统计 属性 ,属性 值 可 以 应 用 于 图 计算 ,偶尔 也 用 于 
es 
4GB 数据 建 模 
< 二 图 数据 库 的 数据 模型 包括 最 小 数据 模型 和 复杂 数 
据 芥 型 两 种 ,前 者 是 有 关 网 络 初始 结构 的 理论 模型 ,后 

取 了 示例 数据 源 中 的 真实 素材 进行 建 模 。 
〇 (1) 最 小 数据 模型 。 考 古 发 据 资 料 图 数据 库 的 最 
汶 漠 所 模型 如 图 5 所 示 , 该 模型 展示 了 上 述 5 个 节点 
类 钉 5 种 初始 关系 类 。 图 中 节点 框 的 框 头 代表 类 名 ， 
附 表 


表 释 : 作 仰 身 直 肢 。 量 俯 身 直 肢 。 色 仰 身上 届 肢 。 曙 俯 身 届 肢 。 另 仰 身 左 届 


na 从 


— >(101213 :Site ) 


属性 值 的 数据 类 型 ;关系 标签 中 也 展 
属性 和 属性 值 的 数据 类 型 。 
人 


框 体 代表 属性 和 
示 了 关系 类 名 ,关系 


文物 -Relic 


墓 形 -Tombshape 


Name-char 4 Name-char 
到 Tdescription—char 
2 Code-char 


5 Hs donbaliape 


:has_relic 


(Qty-inbPet-floan 


Name-char 


本 
ps 吾 式 -Burialform 
py 下 Name-char 
Se Ss 
Bg 


Be (Qty—int,Pct—float) 


/ 
Code-—chat ~、、 一 -一 一 一 
办 SR 莫 主 信息 -Ownerinfo 


ss 
:was_tomb or “~、 


(Qty-int,Pct-float) 


:earlier_than " Gender-char 


AgeG-—int 
NE », 


考古 发 掘 资料 图 数据 库 最 小 数据 模型 


图 5 


(2) 复杂 数据 模型 。 复 杂 数据 模型 构建 选取 本 文 
数据 源 中 的 两 座 具 有 全 压 关 系 的 墓 蕴 进行 示例 ,相关 
的 原始 素材 为 : 

素材 1: 察 吾 呼 幕 地 M052_C4 和 M233_C4 在 原 报 
告 幕 莫 登记 表 中 的 信息 ,如 图 6 所 示 : 


察 再 呼 墓地 墓葬 登记 表 

蒋 。 信 仙 身 右 届 肢 。 多 信 身 右 届 肢 。 踢 以 身 左 届 肢 。3 侧身 右 届 肢 。 8 侧身 
左 届 肢 。 二 男女 。 性 别 、 年 龄 其 中 一 项 不 明 者 用 一 个 X 表 示 ， 两 项 均 不 明 者 用 XX 表 示 。 如 A 8 8 X， 表 示 为 个体， 人身 左 届 肢 ， 男 性 ， 年 龄 不 
明 ; AgX xX， 表示 为 A 个 体 ， 件 身 右 届 肢 ， 性 别 、 年 龄 均 不 明 。 年 龄 一 项 省 咯 “ 岁 " 字 。 《二 ) 表示 为" 二 次 非 "。F 表 示 儿 童 帘 闫 坑 。* 随 闫 品 " 栏 中 之 AI 表示 


@O A 型 I 式 ， 余 同 。 阿 拉 伯 数字 表示 件数 ， 不 注 者 表示 1 件 。 尺 寸 单位 ， 米 。 
附 表 二 ”四 号 墓地 墓葬 登记 表 
墓 | 型 | 方 | 石 盖 板 A 分 
号 | 式 | 向， 长 x 宽 墓 深 威 盖 林 长 x 帘 X 深 语 具 人 数 性 别 、 年 龄 及 雁 俗 、 轮 式 随 妾 品 期 备注 
-F 为 成 人 头骨 ， 集 中 在 
长 方形 和 基肥、 带 流 杯 AIV3， 陶 纺 轮 lI， 豆 把 ， 铜 | _| 有 荧 门 。 划 门 外 侧 有 
ol > 轧 玫 x x 无 H : 二 用 ,入 "mm ; 了 二 E: 羊 & 的 椎 
52 |AII|355"| 5 63x3.10 | 133-1.62 | 石 2.06x1.50x1.00 | 无 | 8 | 肢 、 椎 、 肩 肥 骨 等 ， 归 属 | 刀 CIr， 铜 锥 II， 铜 管 ， 骨 纺 轮 网 器 、 半 肋 及 人 的 椎 
不 明 。 另 有 属于 两 个 幼儿 
的 通 骨 H、G， 人 性别 不 明 
es, 人 2 带 流 杯 AIL、AIII3， 勺 杯 AI[、BIL， 
233| AII | 2° 腰 三 角形 2.20 无 2.24x0.90x0.60 | 无 | 5 Rs 人 硫 I， 勺 杯 A， 谈 1， 双 耳 饮 AI， 陶 纺 | 二 | 有 一 马 头 坑 
残 下 肢 $25-30; D (二 ) 头 、 轮 I; 铜 针 
股骨 $x; Ex 
6 察看 呼 四 号 墓地 M052 和 M233 的 墓葬 登记 信息 


素材 2:M052_C4 和 M233_C4 的 地 层 羡 压 信息 ,如 
“ 羞 压 关 系 ……M52- M233”。 

素材 中 的 有 效 信息 可 整理 出 21 个 节点 ,20 条 初始 
关系 ,模型 表达 见 图 7。 示 例 中 省 略 了 幕 主 信息 及 其 


关系 、 石 围 和 墓 匡 规模 等 细节 信息 ,在 实际 应 用 中 ,这 
些 信 息 可 作为 独立 节点 或 节点 属性 录入 图 数据 库 。 并 
对 示例 中 残缺 .分 类 不 明确 和 描述 不 规范 的 文物 如 ” 豆 
把 “ 羊 肋 ”等 进行 筛 除 。 
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i:has relic 
WAQtyr "1 Pot 033"} 


Node (511230:Relic) 


Name :“ 带 流 杯 AIII” 


Nede (S11240"Relde) 


Name :“ 带 流 杯 AIV” 
Node (200012:Tombshape) 


Node (511510:Relic) 


站 Name:“ 石 围 石室 A 型 II 式 “ 
| zaescription: 规 则 弧 腰 三 .7 
Code:”AII” 


:8.33"} 


Name :“ 双 耳 钢 I 


:has_relic 
{Qty:”3”, Pot:"42.86”} 


Node (511g20:Relic) 


Node (200013:Tombshape) 


Name : “ 石 围 石室 A 型 TII 式 “ 
Tdescription: “规则 的 椭圆 ...”“ 
Coge ATITLY” 


Node (104052:Site) 


Name:“ 勺 杯 AII” 


Name:“M052 C4” 
Bedyeounts 8 
Code: “AIII’” 

到 


Node (511g50:Relic) 


Name :“ 锐 杯 BII7 


Node (200092 :Tombshape) 


由 Name: “SI 
“| Tdescription:"“ 殉 葬 马 或 马 头 “ 
Code:”H’” 


:has_tombshape 
Node (511P10:Relic) 


i ;earlier than 


Name :“ 陶 碗 工 / 


has_tombshape 


Node (104233:Site) 


Name:“M233 C47” 
BaQycounEs 2 
Code:”AII” 


Node (511q10:Relic) 


Name :“ 亏 I 加 
3 :has_burialform 
Pet: ”60"} 


202304.00606v1 


Node (300031 :Burialform) 


Name :7“ 二 次 项 7 


:has_burialform 
{Qty:"2", Pct:"40"} 


Node (300021:Burialform) 


Name :“ 仰 身 届 肢 葬 ” 


Node (511x20:Relic) 


Name :“ 陶 纺 轮 II” 


Node (521190:Relie) 


chinaXiv 


Name:“ 钢 刀 CIII7 


Node (521240:Relic) 


Name :“ 钢 锥 III7 


Node (521h00:Relic) 


Name :“ 铜 针 ” 


{Qty:“1，Pcti“14,.29“) 
Node (521900:;Relic) 


Name :“ 铜 管 ” 


7 考古 发 据 资 料 图 数据 库 复杂 模型 示例 


通过 最 小 模型 图 和 复杂 模型 图 可 以 看 出 本 文 拟 构 | 并 去 除 抓 立 节点 , 即 可 生成 新 疆 察 吾 呼 莫 地 考古 发 所 
建 的 考古 发 掘 资料 图 数据 库 结构 完整 、. 逮 辑 清 晰 ,已 满 | 资料 的 初始 图 数据 库 ,其 中 包含 606 个 节点 ,2 739 条 
足 真实 数据 的 导入 条 件 。 将 真实 数据 导入 图 数据 库 ， | 关系 。 这 些 由 图 数据 库存 储 的 数据 资源 即 可 视 为 原始 
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资料 所 转换 成 的 中 间 态 数据 , 即 可 以 通过 数据 迁移 工 
具 向 其 他 图 数据 库 和 关系 型 数据 库 共 享 数据 。 
5 考古 发 掘 资料 图 数据 库 的 语义 关联 
整理 模型 和 服务 模型 的 第 三 处 交互 是 关联 交互 ， 
其 目标 是 实现 深层 次 的 语义 交互 ,应 用 图 数据 库 的 相 
关 功 能 ,促进 考古 工作 者 在 对 发 气 资 料 研究 过 程 中 的 
知识 发 现 ,进而 通过 知识 融合 作用 于 现 有 的 考古 学 知 
识 服务 平台 的 知识 图 谱 中 。 其 实现 主要 依靠 图 数据 库 
的 深度 查询 功能 ,考古 工作 者 可 以 由 此 对 原始 资料 中 
的 一 些 深层 次 关联 进行 挖掘 和 构建 。 
5.1 考古 发 所 资料 图 数据 库 的 深度 查询 与 关联 构建 
初始 图 数据 库 所 录入 的 都 是 底层 知识 节点 及 初始 
关联 ,从 关联 深度 上 看 ,这 些 关联 都 属于 一 度 关联 。 在 
文学 科 中 , 均 会 存在 一 些 具 有 实际 意义 的 深度 关 
联结 以 考古 学 为 例 ,每 一 地 层 或 遗迹 单位 ( 如 一 座 莫 
茎 人 六 . 房 基 等 ) 中 包含 的 各 种 遗物 所 构成 的 关系 被 
物 间 的 共存 关系 (Coexistence relationship ) |， 


:202304. 


chinaXiv 


其 有 助 于 研究 者 从 整体 的 文物 集合 中 分 离 出 具有 实际 
意义 的 固定 絮 物 组 合 方式 ,发 现 其 中 规律 ,进而 能 够 据 
此 展开 年 代 学 分 段 , 文 化 类 型 判断 等 更 加 细致 的 研究 
工作 。 在 此 以 文物 共存 关系 的 构建 为 例 展示 考古 发 气 
图 数据 库 的 深度 查询 与 关联 构建 功能 。 

共存 关系 是 “文物 ”市 点 类 内 的 一 种 二 度 关 联 , 在 
察 吾 呼 墓地 考古 发 掘 资料 构建 的 初始 图 数据 库 中 , 共 
存 关系 的 中 间 节 点 是 “遗址 "节点 ,倘若 两 种 不 同类 型 
的 文物 在 同一 遗址 出 土 , 则 视 为 二 者 共存 ,其 频次 即 同 
时 出 土 二 者 的 遗址 个 数 。 以 “ 带 流 杯 AIL (Rid: 
511220)” 和 “人 勺 杯 AIT( Rid:511g20) ”为 例 ,首先 ,查询 
二 者 之 间 的 所 有 二 度 关联 ( 见 图 8 - 左 ) ,可 知 同时 出 
土 了 “ 带 流 杯 AI” 和 "和 勺 杯 AI 的 莫非 遗址 共计 25 
座 , 统 计 这 些 “ 遗 址 ”节点 的 数量 记 为 Se; 其 次 ,在 节点 
“ 带 流 杯 AII” 和 “ 勺 杯 AII” 之 间 建 立 “ 共 存 ”( coexis- 
tence_with) 关 系 , 并 将 Sc 值 写 人 关系 的 频次 属性 , 即 
可 完成 两 种 文物 之 间 的 共存 关系 创建 ( 见 图 8 - 右 ) 。 


8 ” 带 流 杯 AI 与 勺 杯 AII 的 共存 关系 创建 结果 比 对 示例 ( 左 :创建 前 , 右 :创建 后 ) 


遍历 整个 图 数据 库 进行 深度 查询 , 共 发 现 并 创建 
了 3 804 种 共存 关系 ,以 共存 关系 频次 为 其 赋值 的 Cy- 
pher 批 处 理 代码 如 表 4 所 示 : 
表 4 ”Cypher 批 处 理 代码 


match (R1:Relic) (S:Site) 
with R1 ，R2 ,count( distinct S) as Se 
merge( R1) < ~ [r:coexistence_with] - > (R2) 


(R2 :Relic) 


setr. Freq =Sc 


5.2 考古 发 掘 资料 图 数据 库 的 语义 关联 示例 
图 数据 库 的 深度 查询 与 关联 构建 功能 可 以 将 隐藏 


在 遍 平 的 数据 网 络 中 有 意义 的 知识 关联 提取 并 展现 
出 来 ,通过 对 节点 间 二 度 \ 三 度 甚至 更 深度 关系 的 逐 层 
构建 ,可 以 在 分 离 实例 的 情况 下 保证 知识 网 络 的 架构 
完整 ,以 实现 更 稳定 的 知识 存储 并 满足 更 高 层次 的 知 
识 服务 需求 。 此 外 ,广泛 应 用 于 知识 服务 的 知识 图 谱 
是 一 种 依托 本 体 进行 知识 组 织 的 语义 网 ,在 原始 资料 
中 ,有 可 能 发 现在 现 有 知识 图 谱 中 所 不 具备 或 未 被 关 
注 的 语义 关联 ,这 些 语义 关联 往往 正 是 知识 发 现 的 主 
要 目标 。 以 深度 查询 与 关联 构建 为 基础 ,对 语义 关联 
的 梳理 可 视 为 一 种 自 下 而 上 的 本 体 构 建 过 程 ,这 种 基 
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于 图 数据 库 的 深层 关联 创建 ,可 以 有 效 增加 领域 本 体 
的 灵活 性 和 适用 性 ,对 于 知识 体系 碎片 化 且 基 础 性 和 
可 变性 较 强 的 数字 人 文 知识 库 建 设 的 作用 不 言 而 喻 。 
以 5.1 部 分 实现 的 “文物 ” 间 共 存 关系 为 基础 , 笔 
者 以 察看 呼 四 号 墓地 M089 和 M156 为 例 ,展示 了 作为 
数据 层 的 图 数据 库 和 知识 图 谱 之 间 的 连接 结构 ,并 从 
中 体现 基于 图 数据 库 构 建 的 二 度 乃 至 深度 关联 在 知识 
图 谱 结 构 中 的 位 置 , 见 图 9。 
依托 考古 发 掘 资料 图 数据 
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首先 ,本 文 在 明确 当前 考古 发 掘 资料 整理 中 所 存 
在 的 现实 问题 ,并 对 国内 外 相关 的 实践 项 目 和 研究 成 
果 进 行 综述 总 结 的 基础 上 ,结合 实际 案例 ,对 以 考古 发 
所 资料 为 代表 的 人 文学 科 原 始 资料 的 特征 进行 解析 ， 
提出 了 将 原始 资料 转化 为 中 间 态 数据 的 观点 。 其 次 ， 
选取 Neo4j 图 数据 库 作 为 原始 资料 整理 的 工具 ,并 基 
于 数字 人 文宏 观 研 究 框 架 重 构 了 原始 资料 整理 的 过 程 
框架 ,结合 主流 的 以 知识 图 谱 为 核心 的 数字 人 文 知识 
服务 模型 提出 了 可 交互 的 面向 数字 人 文 原始 资料 整理 
的 图 数据 库 模 型 ,并 对 两 种 模型 之 间 的 交互 形式 进行 
分 析 。 再 次 ,以 新 疆 和 更 察 吾 呼 墓地 的 考古 发 气 资 料 
为 例 ,详细 探讨 了 考古 发 掘 资料 图 数据 库 的 构建 过 程 ， 


与 服务 模型 中 的 知识 图 谱 进 行 知 识 融合 ,已 有 学 者 探 
讨 过 以 图 数据 存储 语义 关系 的 问题 ” ,以 及 RDF 与 
数据 库 K-V 结构 的 关联 转换 问题 ,实际 上 ,从 数据 中 挖 
据 和 创造 关联 并 用 于 本 体 的 构建 和 修正 过 程 ,在 技术 
上 可 以 与 相关 研究 互相 借鉴 。 考 古 发 掘 资料 图 数据 库 
语义 关联 的 实现 ,有 助 于 将 考古 工作 者 整理 和 研究 后 
的 原始 资料 高 效 、 及 时 、 有 效 地 融入 现 有 知识 服务 平台 
中 ,使 原始 资料 实现 真正 的 数据 化 ,加 速 人 文 研 究 成 果 
向 可 面向 公众 提供 服务 的 知识 产品 转化 。 
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图 9 察看 呼 幕 地 考古 发 据 资 料 图 数据 库 的 语义 关联 构建 


是 出 了 相应 的 数据 分 析 和 数据 建 模 方法 ,实现 原始 资 
料 的 中 间 态 数据 转化 。 最 后 ,以 文物 间 的 共存 关系 为 
例 , 以 遍历 式 深度 查询 与 关联 构建 技术 实现 了 考古 发 
掘 资料 图 数据 库 的 语义 关联 构建 ,为 中 间 态 数据 的 数 
据 化 转换 以 及 进一步 与 知识 图 谱 的 知识 融合 提供 思 
路 。 后 续 可 以 结合 自然 语言 处 理 、 融 合 情 境 的 相似 度 
计算 以 及 更 多 的 图 算法 进一步 对 该 方法 的 应 用 性 功能 
进行 开发 ,使 其 在 数字 人 文 建设 和 发 展 中 发 挥 更 大 的 
作用 。 
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Abstract: | Purpose/significance | Aiming at the current problems on the collation of primary sources, this pa- 


per proposes a method which can realize the datalization and semantic association of archaeological excavation re- 


sources, so as to help archaeologists avoid inefficient processes. | Method/process | Firstly, after analyzing the 


characteristics of the primary sources of humanities with example, the process and method of datalization of primary 


sources was designed; Subsequently, the graph database on archaeological excavation resources was constructed 


based on the data of Xinjiang Hejing Chawuhu Cemeteries which has been selected as the empirical data source of this 


paper; Later, we succeed in the association construction of the coexistence relationships between relics, the semantic 


associations of the graph database were finally realized. | Result/conclusion | The construction of the graph database 


on archaeological excavation resources and its semantic associations could provide a new idea for the datalization of 


archaeological excavation resources, and has promotional value and practical significance in the field of Digital Hu- 


manities. 


Keywords: archaeological excavation resources 


graph database 


semantic associations Chawuhu Cemeteries 


116 


